Membres du groupe

Jiaxun CAI et Mirana RATSIMIVEH

Jiaxun CAI et Mirana RATSIMIVEH

Bibliothèques requises dans ce projet

Instructions pour la première section

Vous devez résoudre quelques exercices théoriques et reproduire les exemples simples du cours en améliorant éventuellement le rendu.

Définition d’une distance

Une fonction est une distance si elle respecte 3 axiomes :
- A1 : identité d’indecernibles \[ d(x,y)=0 <=> x=y \] - A2 : symétrie \[ d(x,y)=d(y,x) \] - A3 : inégalité triangulaire \[ d(x, z) ≤ d(x, y) + d(y, z) \] Exercice 1 :
Les axiomes A1, A2 et A3 impliquent la non-négativité : \[ d(x, y) ≥ 0 \] \[ d(x, y) = 0 <=> x=y \] \[ d(x, y) = d(y,x) \] \[ d(x, z) ≤ d(x,y) + d(y,z) \] \[ d(x, y) ≥ 0 \]

Distance euclidienne

La distance euclidienne est définie : \[ d(x, z) ≤ d(x, y) + d(y, z) \] Exercice 2 :
La distance euclidienne est une vraie distance. \[ d(x,y) = \sqrt{\sum_{m}^{j=1}(x_{j}-y_{j})^2}= 0 \] \[ \sum_{m}^{j=1}(x_{j}-y_{j})^2 = 0 \] \[ (x_{j}-y_{j})^2 = 0 \] \[ \forall j \text{, } x_{j}-y_{j}=0 \] \[ \forall j \text{, } x_{j}=y_{j} \] \[ \forall j \text{, } x=y \]


Nous allons déterminer la distance euclidienne entre les vecteurs x = (0, 0) and y = (6, 6):
- Création d’un data frame contenant les vecteurs x et y, - Transposition du data frame, - Utilisation de la fonction dist avec comme paramètres: le nom de la méthode de distance utilisée, ici “euclidiean”. - Conversion du data frame en matrix afin d’utiliser la fonction kable, - Utilisation de la fonction kable pour l’esthétique du rendu.

Distance euclidienne
x y
x 0.000000 8.485281
y 8.485281 0.000000

Distance Manhattan

La distance Manhattan est définie : \[ d(x, z) ≤ d(x, y) + d(y, z) \] Nous allons déterminer la distance manhattan entre les vecteurs x = (0, 0) and y = (6, 6):
nous utilisons le code de la distance euclidienne mais nous changeons la valeur du paramètre method de la fonction dist en “manhattan”.

Distance manhattan
x y
x 0 12
y 12 0

Distance Camberra

La distance Camberra est définie : \[ d(x, z) ≤ d(x, y) + d(y, z) \] Exercice 3 :
La distance canberra est une vraie distance.
Nous allons déterminer la distance canberra entre les vecteurs x = (0, 0) and y = (6, 6):
nous utilisons le code de la distance euclidienne mais nous changeons la valeur du paramètre method de la fonction dist en “canberra”.

Distance canberra
x y
x 0 2
y 2 0

Distance Minkowski

La distance Minkowski est définie : \[ d(x, z) ≤ d(x, y) + d(y, z) \] Nous allons déterminer la distance canberra entre les vecteurs x = (0, 0) and y = (6, 6):
nous utilisons le code de la distance euclidienne mais nous changeons la valeur du paramètre method de la fonction dist en “Minkowski”.

Distance Minkowski
x y
x 0.000000 8.485281
y 8.485281 0.000000

Graphique de la distance Minkowski

Nous avons réalisé un graphique représentant la distance Minkowski entre les vecteurs x et y.

Mesure similaire pour des données binaires

Variable binaire pour 8 personnes
sex married hair eyes glasses face pesimist evening child left
Talia 0 0 0 1 0 1 0 0 0 0
Jacqueline 0 1 0 0 1 0 0 0 0 0
Kim 0 0 1 0 0 0 1 0 0 1
Lieve 0 1 0 0 0 0 0 1 1 0
Tina 0 0 0 1 0 1 0 0 0 0
Ilan 1 0 1 1 0 0 1 0 0 0
Leon 1 1 0 0 1 1 0 1 1 0
Peter 1 1 0 0 1 0 1 1 0 0

Distance binaire sur les données binaires

Distance binaire sur 8 personnes
Talia Jacqueline Kim Lieve Tina Ilan Leon Peter
Talia 0.0000000 0.6324555 0.7071068 0.7071068 0.0000000 0.6324555 0.7745967 0.8366600
Jacqueline 0.6324555 0.0000000 0.7071068 0.5477226 0.6324555 0.7745967 0.6324555 0.5477226
Kim 0.7071068 0.7071068 0.0000000 0.7745967 0.7071068 0.5477226 0.9486833 0.7745967
Lieve 0.7071068 0.5477226 0.7745967 0.0000000 0.7071068 0.8366600 0.5477226 0.6324555
Tina 0.0000000 0.6324555 0.7071068 0.7071068 0.0000000 0.6324555 0.7745967 0.8366600
Ilan 0.6324555 0.7745967 0.5477226 0.8366600 0.6324555 0.0000000 0.8944272 0.7071068
Leon 0.7745967 0.6324555 0.9486833 0.5477226 0.7745967 0.8944272 0.0000000 0.5477226
Peter 0.8366600 0.5477226 0.7745967 0.6324555 0.8366600 0.7071068 0.5477226 0.0000000

Représentation de la matrice des similitarités

Nous utilisons le package corrplot pour faire cette représentation. Malheuresement, une corrélation ne s’apparente pas à une distance mais plutôt à une similarité. Nous allons donc représenter directement les similarités fournies par la matrice des distances ci-dessus.

Visualisation de la matrice de correlation du jeu de donnée de 8 personnes

Distance binaire avec des variables nominales

Variable nominal
col sex
blue H
brown F
brown F
Variable nominal binaire
col sex col_blue col_brown sex_F sex_H
blue H 1 0 0 1
brown F 0 1 1 0
brown F 0 1 1 0
##   1 2 3
## 1 0    
## 2 0 0  
## 3 0 1 0
Jeu de données animals : données révisées
war fly ver end gro hai
ant 1 1 1 1 0 1
bee 1 0 1 1 0 0
cat 0 1 0 1 1 0
cpl 1 1 1 1 1 0
chi 0 1 0 0 0 0
cow 0 1 0 1 0 0
duc 0 0 0 1 0 1
eag 0 0 0 0 1 1
ele 0 1 0 0 0 1
fly 1 0 1 1 1 1
fro 1 1 0 0 NA 1
her 1 1 0 1 0 1
lio 0 1 0 NA 0 0
liz 1 1 0 1 1 1
lob 1 1 1 1 NA 1
man 0 1 0 0 0 0
rab 0 1 0 1 0 0
sal 1 1 0 1 NA 1
spi 1 1 1 NA 1 0
wha 0 1 0 0 0 1

Similarité entre les variables war et end : \[ \lvert (5 * 8) - (1 * 4)\rvert = 36 \]

Jeu de donnée animals
0 1
0 5 4
1 1 8
war fly ver end gro hai
ant 1 1 1 1 0 1
bee 1 0 1 1 0 0
cat 0 1 0 1 1 0
cpl 1 1 1 1 1 0
chi 0 1 0 0 0 0
cow 0 1 0 1 0 0
duc 0 0 0 1 0 1
eag 0 0 0 0 1 1
ele 0 1 0 0 0 1
fly 1 0 1 1 1 1
fro 1 1 0 0 NA 1
her 1 1 0 1 0 1
lio 0 1 0 0 0 0
liz 1 1 0 1 1 1
lob 1 1 1 1 NA 1
man 0 1 0 0 0 0
rab 0 1 0 1 0 0
sal 1 1 0 1 NA 1
spi 1 1 1 1 1 0
wha 0 1 0 0 0 1

Similarité :

(abs(1-0)+abs(0-1)+abs(0-1)+1+abs(1-3)/2+abs(3-15)/17+abs(150-25)/180+abs(50-15)/50)/8
## [1] 0.8875408

Dissimilarité de Gower

Le coefficient de Gower est une mesure de dissimilarité spécifiquement conçue pour traiter des types d’attributs ou des variables.

begonia broom camellia dahlia forget-me-not fuchsia geranium gladiolus heather hydrangea iris lily lily-of-the-valley peony pink carnation red rose scotch rose tulip
begonia 0.0000000 0.8875408 0.5272467 0.3517974 0.4115605 0.2269199 0.2876225 0.4234069 0.5808824 0.6094363 0.3278595 0.4267565 0.5196487 0.2926062 0.6221814 0.6935866 0.7765114 0.4610294
broom 0.8875408 0.0000000 0.5147059 0.5504493 0.6226307 0.6606209 0.5999183 0.4641340 0.4316585 0.4531046 0.7096814 0.5857843 0.5248366 0.5949346 0.3903595 0.3575163 0.1904412 0.4515114
camellia 0.5272467 0.5147059 0.0000000 0.5651552 0.3726307 0.3003268 0.4896242 0.6038399 0.4463644 0.4678105 0.5993873 0.6004902 0.5395425 0.6096405 0.5300654 0.6222222 0.5801471 0.7162173
dahlia 0.3517974 0.5504493 0.5651552 0.0000000 0.6383578 0.4189951 0.3435866 0.2960376 0.8076797 0.5570670 0.6518791 0.5132761 0.7464461 0.3680147 0.5531454 0.3417892 0.4247141 0.4378268
forget-me-not 0.4115605 0.6226307 0.3726307 0.6383578 0.0000000 0.3443627 0.4197712 0.4673203 0.3306781 0.3812908 0.3864788 0.5000817 0.2919118 0.5203431 0.4602124 0.7301471 0.6880719 0.4755310
fuchsia 0.2269199 0.6606209 0.3003268 0.4189951 0.3443627 0.0000000 0.1892974 0.5714869 0.5136846 0.4119281 0.4828840 0.5248366 0.4524510 0.3656863 0.5091503 0.5107843 0.5937092 0.6438317
geranium 0.2876225 0.5999183 0.4896242 0.3435866 0.4197712 0.1892974 0.0000000 0.4107843 0.5890931 0.5865196 0.5652369 0.6391340 0.5278595 0.5049837 0.3345588 0.4353758 0.5183007 0.4692402
gladiolus 0.4234069 0.4641340 0.6038399 0.2960376 0.4673203 0.5714869 0.4107843 0.0000000 0.6366422 0.6639706 0.4955474 0.4216503 0.5754085 0.4558007 0.4512255 0.6378268 0.4707516 0.1417892
heather 0.5808824 0.4316585 0.4463644 0.8076797 0.3306781 0.5136846 0.5890931 0.6366422 0.0000000 0.4256127 0.4308007 0.4194036 0.2181781 0.4396650 0.2545343 0.6494690 0.6073938 0.5198529
hydrangea 0.6094363 0.4531046 0.4678105 0.5570670 0.3812908 0.4119281 0.5865196 0.6639706 0.4256127 0.0000000 0.3948121 0.3812092 0.3643791 0.3609477 0.4210784 0.3488562 0.3067810 0.8057598
iris 0.3278595 0.7096814 0.5993873 0.6518791 0.3864788 0.4828840 0.5652369 0.4955474 0.4308007 0.3948121 0.0000000 0.2636029 0.3445670 0.2838644 0.4806781 0.7436683 0.7015931 0.5359477
lily 0.4267565 0.5857843 0.6004902 0.5132761 0.5000817 0.5248366 0.6391340 0.4216503 0.4194036 0.3812092 0.2636029 0.0000000 0.2331699 0.1591503 0.4295752 0.6050654 0.5629902 0.5495507
lily-of-the-valley 0.5196487 0.5248366 0.5395425 0.7464461 0.2919118 0.4524510 0.5278595 0.5754085 0.2181781 0.3643791 0.3445670 0.2331699 0.0000000 0.3784314 0.3183007 0.5882353 0.5461601 0.5733252
peony 0.2926062 0.5949346 0.6096405 0.3680147 0.5203431 0.3656863 0.5049837 0.4558007 0.4396650 0.3609477 0.2838644 0.1591503 0.3784314 0.0000000 0.4351307 0.4598039 0.5427288 0.5698121
pink carnation 0.6221814 0.3903595 0.5300654 0.5531454 0.4602124 0.5091503 0.3345588 0.4512255 0.2545343 0.4210784 0.4806781 0.4295752 0.3183007 0.4351307 0.0000000 0.3949346 0.3528595 0.5096814
red rose 0.6935866 0.3575163 0.6222222 0.3417892 0.7301471 0.5107843 0.4353758 0.6378268 0.6494690 0.3488562 0.7436683 0.6050654 0.5882353 0.4598039 0.3949346 0.0000000 0.1670752 0.7796160
scotch rose 0.7765114 0.1904412 0.5801471 0.4247141 0.6880719 0.5937092 0.5183007 0.4707516 0.6073938 0.3067810 0.7015931 0.5629902 0.5461601 0.5427288 0.3528595 0.1670752 0.0000000 0.6125408
tulip 0.4610294 0.4515114 0.7162173 0.4378268 0.4755310 0.6438317 0.4692402 0.1417892 0.5198529 0.8057598 0.5359477 0.5495507 0.5733252 0.5698121 0.5096814 0.7796160 0.6125408 0.0000000

Visualisation et calcul de matrice de distance

fviz_dist(d_flow)

Visualiser des résultats K-means

Jeu de donnée Hartigandata
Energy Protein Calcium
BB 11 29 1
HR 8 30 1
BR 13 21 1
BS 12 27 1
BC 6 31 2
CB 4 29 1
CC 5 36 1
BH 5 37 2

Le taux d’erreur est égale à :

## [1] 14.16667

Les différents objets avec leurs clusters

## BB HR BR BS BC CB CC BH 
##  1  4  2  1  4  4  3  3

Méthode pour déterminer le nombre idéal de k
Visualiser k-means, les clusters

Silhouette : valeurs et visualisation

##   cluster size ave.sil.width
## 1       1    2          0.60
## 2       2    1          0.00
## 3       3    2          0.79
## 4       4    3          0.41

Dissimilarités entre 12 pays

Coordonnées des pays
x y
1 4
5 1
5 2
5 4
10 4
25 4
25 6
25 7
25 8
29 7
## [1] 5050

K-means clustering analysis des pays

Partitionnement autour des médoïdes

##       x y
## [1,]  5 2
## [2,] 25 7
## Medoids:
##      ID  x y
## [1,]  3  5 2
## [2,]  8 25 7
## Clustering vector:
##  [1] 1 1 1 1 1 2 2 2 2 2
## Objective function:
##    build     swap 
## 3.421612 2.185730 
## 
## Numerical information per cluster:
##      size max_diss av_diss diameter separation
## [1,]    5 5.385165 2.57146        9         15
## [2,]    5 4.000000 1.80000        5         15
## 
## Isolated clusters:
##  L-clusters: character(0)
##  L*-clusters: [1] 1 2
## 
## Silhouette plot information:
##    cluster neighbor sil_width
## 3        1        2 0.8491030
## 4        1        2 0.8331846
## 2        1        2 0.8277844
## 1        1        2 0.7748486
## 5        1        2 0.6069286
## 8        2        1 0.8888381
## 7        2        1 0.8863332
## 9        2        1 0.8641158
## 6        2        1 0.8238081
## 10       2        1 0.8215954
## Average silhouette width per cluster:
## [1] 0.7783698 0.8569381
## Average silhouette width of total data set:
## [1] 0.817654
## 
## 45 dissimilarities, summarized :
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   4.123  15.297  13.310  20.616  28.160 
## Metric :  euclidean 
## Number of objects : 10
## 
## Available components:
##  [1] "medoids"    "id.med"     "clustering" "objective"  "isolation" 
##  [6] "clusinfo"   "silinfo"    "diss"       "call"       "data"
Dissimilarités entre 12 pays
BEL BRA CHI CUB EGY FRA IND ISR USA USS YUG ZAI
BEL 0.00 5.58 7.00 7.08 4.83 2.17 6.42 3.42 2.50 6.08 5.25 4.75
BRA 5.58 0.00 6.50 7.00 5.08 5.75 5.00 5.50 4.92 6.67 6.83 3.00
CHI 7.00 6.50 0.00 3.83 8.17 6.67 5.58 6.42 6.25 4.25 4.50 6.08
CUB 7.08 7.00 3.83 0.00 5.83 6.92 6.00 6.42 7.33 2.67 3.75 6.67
EGY 4.83 5.08 8.17 5.83 0.00 4.92 4.67 5.00 4.50 6.00 5.75 5.00
FRA 2.17 5.75 6.67 6.92 4.92 0.00 6.42 3.92 2.25 6.17 5.42 5.58
IND 6.42 5.00 5.58 6.00 4.67 6.42 0.00 6.17 6.33 6.17 6.08 4.83
ISR 3.42 5.50 6.42 6.42 5.00 3.92 6.17 0.00 2.75 6.92 5.83 6.17
USA 2.50 4.92 6.25 7.33 4.50 2.25 6.33 2.75 0.00 6.17 6.67 5.67
USS 6.08 6.67 4.25 2.67 6.00 6.17 6.17 6.92 6.17 0.00 3.67 6.50
YUG 5.25 6.83 4.50 3.75 5.75 5.42 6.08 5.83 6.67 3.67 0.00 6.92
ZAI 4.75 3.00 6.08 6.67 5.00 5.58 4.83 6.17 5.67 6.50 6.92 0.00

Partitionnement autour des médoïdes

## Medoids:
##      ID       
## [1,] "9" "USA"
## [2,] "4" "CUB"
## Clustering vector:
## BEL BRA CHI CUB EGY FRA IND ISR USA USS YUG ZAI 
##   1   1   2   2   1   1   2   1   1   2   2   1 
## Objective function:
##    build     swap 
## 3.291667 3.236667 
## 
## Available components:
## [1] "medoids"    "id.med"     "clustering" "objective"  "isolation" 
## [6] "clusinfo"   "silinfo"    "diss"       "call"

Silhouette : valeurs et visualisation

##   cluster size ave.sil.width
## 1       1    7          0.34
## 2       2    5          0.33

##     cluster neighbor   sil_width
## BEL       1        2  0.39129752
## BRA       1        2  0.22317708
## CHI       2        1  0.32512211
## CUB       2        1  0.39814815
## EGY       1        2  0.19652641
## FRA       1        2  0.35152954
## IND       2        1 -0.04466159
## ISR       1        2  0.29785894
## USA       1        2  0.42519084
## USS       2        1  0.34104696
## YUG       2        1  0.26177642
## ZAI       1        2  0.18897849
## attr(,"Ordered")
## [1] FALSE
## attr(,"call")
## silhouette.default(x = PAM_Rousseeuw$clustering, dist = df_Rousseeuw)
## attr(,"class")
## [1] "silhouette"
##   cluster size ave.sil.width
## 1       1    7          0.30
## 2       2    5          0.26

Instructions pour la seconde section

Résumé des données brutes : Distribution des revenus par quantiles
annee geo pays quantile values
Min. :1995 Length:6380 Length:6380 Length:6380 Min. : 0.5
1st Qu.:2006 Class :character Class :character Class :character 1st Qu.: 6.1
Median :2011 Mode :character Mode :character Mode :character Median : 8.9
Mean :2010 NA NA NA Mean :10.0
3rd Qu.:2016 NA NA NA 3rd Qu.:12.1
Max. :2020 NA NA NA Max. :34.5

Calculer le coefficient de Gini dans la dataframe de l’inégalité

résumé du coefficient de Gini calculé dans le dataframe
annee geo pays coefficient_Gini
Min. :1995 Length:638 Length:638 Min. :0.2332
1st Qu.:2006 Class :character Class :character 1st Qu.:0.2873
Median :2011 Mode :character Mode :character Median :0.3056
Mean :2010 NA NA Mean :0.3032
3rd Qu.:2016 NA NA 3rd Qu.:0.3213
Max. :2020 NA NA Max. :0.3670
  • Représentez graphiquement les inégalités. ## l’inégalité en 2019

l’inégalité dans l’évolution

  • Tentez de représenter simulatnément la richesse (revenu moyen) et les inégalités (Gini).
  • Téléchargez d’autres indicateurs européens qui concernent la santé l’éducation, etc.

Obtenez le jeu de données d’Eurostat

l’espérance de vie en bonne santé basée sur la santé perçue par l’individu

l’espérance de vie en bonne santé dans les pays européens en 2019
annee geo pays values
2019 AT Austria 75.86667
2019 BE Belgium 75.66667
2019 BG Bulgaria 70.16667
2019 CH Switzerland 81.16667
2019 CY Cyprus 77.13333
2019 CZ Czechia 73.10000
2019 DE Germany 75.43333
2019 DK Denmark 75.90000
2019 EE Estonia 70.33333
2019 ES Spain 78.36667
2019 FI Finland 78.16667
2019 FR France 76.33333
2019 HR Croatia 68.23333
2019 HU Hungary 69.46667
2019 IE Ireland 80.30000
2019 IT Italy 78.70000
2019 LT Lithuania 67.93333
2019 LU Luxembourg 75.60000
2019 LV Latvia 67.16667
2019 MT Malta 79.46667
2019 NL Netherlands 78.36667
2019 NO Norway 76.70000
2019 PL Poland 69.73333
2019 PT Portugal 71.50000
2019 RO Romania 71.16667
2019 SE Sweden 79.30000
2019 SI Slovenia 74.23333
2019 SK Slovakia 68.56667

Population par niveau d’éducation, sexe et âge (%)

la part de la population âgée de 25 à 64 ans ayant suivi une formation post-secondaire dans les pays européens en 2019
annee geo pays values
2019 AT Austria 85.56667
2019 BE Belgium 78.70000
2019 BG Bulgaria 82.50000
2019 CH Switzerland 89.00000
2019 CY Cyprus 82.46667
2019 CZ Czechia 93.76667
2019 DE Germany 86.63333
2019 DK Denmark 81.60000
2019 EE Estonia 88.96667
2019 ES Spain 61.30000
2019 FI Finland 90.10000
2019 FR France 80.50000
2019 HR Croatia 85.80000
2019 HU Hungary 84.96667
2019 IE Ireland 83.63333
2019 IS Iceland 78.66667
2019 IT Italy 62.16667
2019 LT Lithuania 94.93333
2019 LU Luxembourg 79.30000
2019 LV Latvia 91.10000
2019 ME Montenegro 87.83333
2019 MK North Macedonia 71.56667
2019 MT Malta 57.80000
2019 NL Netherlands 79.56667
2019 NO Norway 83.20000
2019 PL Poland 92.60000
2019 PT Portugal 52.06667
2019 RO Romania 79.00000
2019 RS Serbia 81.50000
2019 SE Sweden 86.13333
2019 SI Slovenia 88.80000
2019 SK Slovakia 91.36667
2019 TR Turkey 38.90000
  • Faites une Cluster Analysis des données.
    Préparez les données, joignez toutes les variables dans un ensemble de données. Ici, nous avons quatre variables pour notre analyse en cluster :
  1. le revenu moyen
  2. coefficient de Gini
  3. Espérance de vie en bonne santé
  4. Pourcentage de la population ayant reçu une éducation post-secondaire
Situation générale des pays européens en 2019 concernant les revenus, les inégalités, la santé et l’éducation
coefficient_Gini Revenu_Moyen/€ espérance_de_vie/an éducation_postsecondaire/%
AL 0.2808 2619 0.00000 0.00000
AT 0.3152 28568 75.86667 85.56667
BE 0.3273 26275 75.66667 78.70000
BG 0.2520 5551 70.16667 82.50000
CH 0.2995 47622 81.16667 89.00000
CY 0.2959 19302 77.13333 82.46667
CZ 0.3334 11068 73.10000 93.76667
DE 0.3066 26105 75.43333 86.63333
DK 0.3156 34332 75.90000 81.60000
EE 0.2975 12780 70.33333 88.96667
ES 0.2900 17287 78.36667 61.30000
FI 0.3219 28061 78.16667 90.10000
FR 0.3068 26210 76.33333 80.50000
HR 0.3067 8089 68.23333 85.80000
HU 0.3105 6568 69.46667 84.96667
IE 0.3140 29684 80.30000 83.63333
IT 0.2908 19528 78.70000 62.16667
LT 0.2764 9264 67.93333 94.93333
LU 0.2922 42818 75.60000 79.30000
LV 0.2783 9749 67.16667 91.10000
ME 0.2815 4241 0.00000 87.83333
MK 0.2956 2972 0.00000 71.56667
MT 0.3098 17246 79.46667 57.80000
NL 0.3221 27352 78.36667 79.56667
NO 0.3260 42488 76.70000 83.20000
PL 0.3105 8022 69.73333 92.60000
PT 0.2923 11786 71.50000 52.06667
RO 0.2788 4419 71.16667 79.00000
RS 0.2861 3665 0.00000 81.50000
SE 0.3155 26356 79.30000 86.13333
SI 0.3330 15236 74.23333 88.80000
SK 0.3371 8523 68.56667 91.36667
TR 0.2477 4113 0.00000 38.90000

Nous utiliserons deux méthodes pour décider du nombre de clusters.

  • La méthode du coude : dans laquelle la somme des carrés à chaque nombre de clusters est calculée et représentée graphiquement, on peut ainsi rechercher un changement de pente de abrupte à douce (un elbow) pour déterminer le nombre optimal de clusters. Cette méthode est inexacte, mais elle peut être utile.

  • La méthode des silhouettes : elle permet de déterminer le nombre optimal de clusters. La méthode de la silhouette moyenne calcule la silhouette moyenne des observations pour différentes valeurs de k. Le nombre optimal de clusters k est celui qui maximise la silhouette moyenne sur une gamme de valeurs possibles pour k.

Même si la méthode de la silhouette nous suggère de prendre cinq clusters, nous avons cependant découvert que deux clusters peuvent également apporter une largeur de silhouette relativement élevée. Nous allons donc continuer à mener notre analyse en deux clusters afin de faciliter l’analyse.

Cluster Analysis dans k-means

centres du clust
coefficient_Gini Revenu_Moyen/€ espérance_de_vie/an éducation_postsecondaire/%
Cluster1 0.3135583 32155.917 77.4000 83.66111
Cluster2 0.2945095 9620.381 55.0127 74.73333